9 research outputs found

    Fallos intermitentes: análisis de causas y efectos, nuevos modelos de fallos y técnicas de mitigación

    Full text link
    [EN] From the first integrated circuit was developed to very large scale integration (VLSI) technology, the hardware of computer systems has had an immense evolution. Moore's Law, which predicts that the number of transistors that can be integrated on a chip doubles every year, has been accomplished for decades thanks to the aggressive reduction of transistors size. This has allowed increasing its frequency, achieving higher performance with lower consumption, but at the expense of a reliability penalty. The number of defects are raising due to variations in the increasingly complex manufacturing process. Intermittent faults, one of the fundamental issues affecting the reliability of current and future digital VLSI circuits technologies, are studied in this thesis. In the past, intermittent faults have been considered the prelude to permanent faults. Nowadays, the occurrence of intermittent faults caused by variations in the manufacturing process not affecting permanently has increased. Errors induced by intermittent and transient faults manifest similarly, although intermittent faults are usually grouped in bursts and they are activated repeatedly and non-deterministically in the same place. In addition, intermittent faults can be activated and deactivated by changes in temperature, voltage and frequency. In this thesis, the effects of intermittent faults in digital systems have been analyzed by using simulation-based fault injection. This methodology allows introducing faults in a controlled manner. After an extensive literature review to understand the physical mechanisms of intermittent faults, new intermittent fault models at gate and register transfer levels have been proposed. These new fault models have been used to analyze the effects of intermittent faults in different microprocessors models, as well as the influence of several parameters. To mitigate these effects, various fault tolerance techniques have been studied in this thesis, in order to determine whether they are suitable to tolerate intermittent faults. Results show that the error detection mechanisms work properly, but the error recovery mechanisms need to be improved. Error correction codes (ECC) is a well-known fault tolerance technique. This thesis proposes a new family of ECCs specially designed to tolerate faults when the fault rate is not equal in all bits in a word, such as in the presence of intermittent faults. As these faults may also present a fault rate variable along time, a fault tolerance mechanism whose behavior adapts to the temporal evolution of error conditions can use the new ECCs proposed.[ES] Desde la invención del primer circuito integrado hasta la tecnología de muy alta escala de integración (VLSI), el hardware de los sistemas informáticos ha evolucionado enormemente. La Ley de Moore, que vaticina que el número de transistores que se pueden integrar en un chip se duplica cada año, se ha venido cumpliendo durante décadas gracias a la agresiva reducción del tamaño de los transistores. Esto ha permitido aumentar su frecuencia de trabajo, logrando mayores prestaciones con menor consumo, pero a costa de penalizar la confiabilidad, ya que aumentan los defectos producidos por variaciones en el cada vez más complejo proceso de fabricación. En la presente tesis se aborda el estudio de uno de los problemas fundamentales que afectan a la confiabilidad en las actuales y futuras tecnologías de circuitos integrados digitales VLSI: los fallos intermitentes. En el pasado, los fallos intermitentes se consideraban el preludio de fallos permanentes. En la actualidad, ha aumentado la aparición de fallos intermitentes provocados por variaciones en el proceso de fabricación que no afectan permanentemente. Los errores inducidos por fallos intermitentes se manifiestan de forma similar a los provocados por fallos transitorios, salvo que los fallos intermitentes suelen agruparse en ráfagas y se activan repetitivamente y de forma no determinista en el mismo lugar. Además, los fallos intermitentes se pueden activar y desactivar por cambios de temperatura, tensión y frecuencia. En esta tesis se han analizado los efectos de los fallos intermitentes en sistemas digitales utilizando inyección de fallos basada en simulación, que permite introducir fallos en el sistema de forma controlada. Tras un amplio estudio bibliográfico para entender los mecanismos físicos de los fallos intermitentes, se han propuesto nuevos modelos de fallo en los niveles de puerta lógica y de transferencia de registros, que se han utilizado para analizar los efectos de los fallos intermitentes y la influencia de diversos factores. Para mitigar esos efectos, en esta tesis se han estudiado distintas técnicas de tolerancia a fallos, con el objetivo de determinar si son adecuadas para tolerar fallos intermitentes, ya que las técnicas existentes están generalmente diseñadas para tolerar fallos transitorios o permanentes. Los resultados muestran que los mecanismos de detección funcionan adecuadamente, pero hay que mejorar los de recuperación. Una técnica de tolerancia a fallos existente son los códigos correctores de errores (ECC). Esta tesis propone nuevos ECC diseñados para tolerar fallos cuando su tasa no es la misma en todos los bits de una palabra, como en el caso de los fallos intermitentes. Éstos, además, pueden presentar una tasa de fallo variable en el tiempo, por lo que sería necesario un mecanismo de tolerancia a fallos cuyo comportamiento se adapte a la evolución temporal de las condiciones de error, y que utilice los nuevos ECC propuestos.[CA] Des de la invenció del primer circuit integrat fins a la tecnologia de molt alta escala d'integració (VLSI), el maquinari dels sistemes informàtics ha evolucionat enormement. La Llei de Moore, que vaticina que el nombre de transistors que es poden integrar en un xip es duplica cada any, s'ha vingut complint durant dècades gràcies a l'agressiva reducció de la mida dels transistors. Això ha permès augmentar la seua freqüència de treball, aconseguint majors prestacions amb menor consum, però a costa de penalitzar la fiabilitat, ja que augmenten els defectes produïts per variacions en el cada vegada més complex procés de fabricació. En la present tesi s'aborda l'estudi d'un dels problemes fonamentals que afecten la fiabilitat en les actuals i futures tecnologies de circuits integrats digitals VLSI: les fallades intermitents. En el passat, les fallades intermitents es consideraven el preludi de fallades permanents. En l'actualitat, ha augmentat l'aparició de fallades intermitents provocades per variacions en el procés de fabricació que no afecten permanentment. Els errors induïts per fallades intermitents es manifesten de forma similar als provocats per fallades transitòries, llevat que les fallades intermitents solen agrupar-se en ràfegues i s'activen repetidament i de forma no determinista en el mateix lloc. A més, les fallades intermitents es poden activar i desactivar per canvis de temperatura, tensió i freqüència. En aquesta tesi s'han analitzat els efectes de les fallades intermitents en sistemes digitals utilitzant injecció de fallades basada en simulació, que permet introduir errors en el sistema de forma controlada. Després d'un ampli estudi bibliogràfic per entendre els mecanismes físics de les fallades intermitents, s'han proposat nous models de fallada en els nivells de porta lògica i de transferència de registres, que s'han utilitzat per analitzar els efectes de les fallades intermitents i la influència de diversos factors. Per mitigar aquests efectes, en aquesta tesi s'han estudiat diferents tècniques de tolerància a fallades, amb l'objectiu de determinar si són adequades per tolerar fallades intermitents, ja que les tècniques existents estan generalment dissenyades per tolerar fallades transitòries o permanents. Els resultats mostren que els mecanismes de detecció funcionen adequadament, però cal millorar els de recuperació. Una tècnica de tolerància a fallades existent són els codis correctors d'errors (ECC). Aquesta tesi proposa nous ECC dissenyats per tolerar fallades quan la seua taxa no és la mateixa en tots els bits d'una paraula, com en el cas de les fallades intermitents. Aquests, a més, poden presentar una taxa de fallada variable en el temps, pel que seria necessari un mecanisme de tolerància a fallades on el comportament s'adapte a l'evolució temporal de les condicions d'error, i que utilitze els nous ECC proposats.Saiz Adalid, LJ. (2015). Fallos intermitentes: análisis de causas y efectos, nuevos modelos de fallos y técnicas de mitigación [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/59452TESI

    Injecting Intermittent Faults for the Dependability Assessment of a Fault-Tolerant Microcomputer System

    Full text link
    © 2016 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republishing this material for advertising or promotional purposes, creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other works.As scaling is more and more aggressive, intermittent faults are increasing their importance in current deep submicron complementary metal-oxide-semiconductor (CMOS) technologies. This work shows the dependability assessment of a fault-tol- erant computer system against intermittent faults. The applied methodology lies in VHDL-based fault injection, which allows the assessment in early design phases, together with a high level of observability and controllability. The evaluated system is a duplex microcontroller system with cold stand-by sparing. A wide set of intermittent fault models have been injected, and from the simulation traces, coverages and latencies have been measured. Markov models for this system have been generated and some dependability functions, such as reliability and safety, have been calculated. From these results, some enhancements of detection and recovery mechanisms have been suggested. The methodology presented is general to any fault-tolerant computer system.This work was supported in part by the Universitat Politecnica de Valencia under the Research Project SP20120806, and in part by the Spanish Government under the Research Project TIN2012-38308-C02-01. Associate Editor: J. Shortle.Gil Tomás, DA.; Gracia Morán, J.; Baraza Calvo, JC.; Saiz Adalid, LJ.; Gil Vicente, PJ. (2016). Injecting Intermittent Faults for the Dependability Assessment of a Fault-Tolerant Microcomputer System. IEEE Transactions on Reliability. 65(2):648-661. https://doi.org/10.1109/TR.2015.2484058S64866165

    Portafolio docente-Título de experto universitario en pedagogía universitaria 2015-2017

    Full text link
    Este libro presenta el portafolio docente desarrollado por el autor, Luis José Saiz Adalid, a lo largo de su formación en el título de experto universitario en pedagogía universitaria, entre 2015 y 2017.Saiz Adalid, LJ. (2021). Portafolio docente-Título de experto universitario en pedagogía universitaria 2015-2017. Universitat Politècnica de València. http://hdl.handle.net/10251/17853

    Unidad aritmético-lógica

    Full text link
    El vídeo muestra los principios básicos para entender el funcionamiento y ser capaz de diseñar la unidad aritmético-lógica de un procesador.https://media.upv.es/player/?id=b53cb168-f7f7-43eb-a0e8-6477569bdf40Saiz Adalid, LJ. (2009). Unidad aritmético-lógica. http://hdl.handle.net/10251/523

    Circuitos combinacionales: demultiplexores

    Full text link
    Este vídeo presenta los circuitos combinacionales denominados demultiplexores. Explica su diseño y funcionamiento.https://media.upv.es/player/?id=bfb9df36-3526-429f-a9e0-714bc27d25e0Saiz Adalid, LJ. (2009). Circuitos combinacionales: demultiplexores. http://hdl.handle.net/10251/523

    Tecnologías de memorias de semiconductores

    Full text link
    Este vídeo introduce algunos conceptos básicos sobre el almacenamiento de información en los computadores, y los distintos tipos de memorias de semiconductores que pueden utilizarse en un computador.https://media.upv.es/player/?id=967dcbe0-3fd5-11e7-9b33-83cdd974e088Saiz Adalid, LJ. (2017). Tecnologías de memorias de semiconductores. http://hdl.handle.net/10251/84006DE

    Circuitos combinacionales: codificadores

    Full text link
    El vídeo presenta los conceptos necesarios para comprender el funcionamiento y ser capaz de diseñar los circuitos combinacionales denominados codificadores.https://media.upv.es/player/?id=48397d99-d15e-4f85-b7d2-ac97d369dc90Saiz Adalid, LJ. (2009). Circuitos combinacionales: codificadores. http://hdl.handle.net/10251/523

    Análisis de nuevos modelos de fallos intermitentes para nuevas tecnologías

    Full text link
    El libro presenta la memoria de los períodos de docencia e investigación del autor, Luis José Saiz Adalid, conducentes a la obtención del diploma de estudios avanzados y el reconocimiento de la suficiencia investigadora. Especial mención merece el trabajo de investigación tutelado, que lleva por título "Análisis de nuevos modelos de fallos intermitentes para nuevas tecnologías". El autor, integrado en el grupo de sistemas tolerantes a fallos (GSTF) de la Universidad Politécnica de Valencia, analiza las causas físicas que pueden provocar fallos intermitentes en los circuitos integrados y sus efectos a nivel lógico, para obtener modelos de fallos que sean representativos para el nivel de abstracción que se utilice. Aplicando estos modelos de fallos a modelos de sistemas informáticos se pueden realizar campañas de inyección de fallos que permiten analizar el comportamiento de dicho sistema ante la presencia de fallos.Saiz Adalid, LJ. (2010). Memoria de los períodos de docencia e investigación para obtener el diploma de estudios avanzados. Universitat Politècnica de València. http://hdl.handle.net/10251/17853

    Introducción a los Códigos de Corrección de Errores

    Full text link
    En este trabajo se presentan los conceptos básicos y el funcionamiento de los Códigos de Detección y Corrección de Errores. Esta técnica de Tolerancia a Fallos permite detectar y/o corregir errores en diferentes ámbitos de aplicación, como pueden ser en la transmisión de información (buses, unidades de Entrada/Salida y transmisión de datos), o en el almacenamiento de datos (RAM, discos duros, etc.).Gracia Morán, J.; Saiz Adalid, LJ. (2023). Introducción a los Códigos de Corrección de Errores. http://hdl.handle.net/10251/19461
    corecore